Skip to content

更新失效的 url 以及相关数据#5

Open
liuyunbin wants to merge 34 commits intolizy14:masterfrom
liuyunbin:master
Open

更新失效的 url 以及相关数据#5
liuyunbin wants to merge 34 commits intolizy14:masterfrom
liuyunbin:master

Conversation

@liuyunbin
Copy link

主要修改如下

  1. 更新失效的民政部的 url
  2. 依照最新的民政部的信息更新相关文件, 除了目录 rules-handwritten/

问题:
请问, 有什么好办法能高效并且准确生成行政区的变更情况吗? 能分享一下相关的思路吗?

@jianghc724
Copy link
Contributor

问题: 请问, 有什么好办法能高效并且准确生成行政区的变更情况吗? 能分享一下相关的思路吗?

抱歉我刚看见这个PR,我们在库中有自动生成的脚本,会自动生成大部分的区划变更。
对于部分异常,我们是手动加入的。

Copy link
Contributor

@jianghc724 jianghc724 left a comment

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

抱歉久等,我今天下午终于有整块的时间进行仔细review,因为里面的部分变化令我意想不到,我需要打开对应的网页对改动进行仔细检查。
这个repo是接近六年前我们写的,comment可能有点多,也可能有错,欢迎讨论!
除了以下所有的comment,还需要劳烦你整合一下commit的结构,目前的结构相对来说对于reviewer不是很友好,也容易遗漏。我认为table的变化应该立刻体现在diff和rule的变化,这样更为直观。
Commit 1: 修复脚本中的路径错误
Commit 2: 修正失效url
Commit 3: update script for descrptions并将新获取的网页存档,如果之后没有做23年的区划变更,不用将网页修改至23年,22年即可。
Commit 4: 添加丢失的2017/2018/2019 csv的表头 并更新对应的diff
以上四个commit为框架更新或者为obvious change,以下的commit为区划代码勘误
Commit 4: 佛山地区代码修正
牵扯到1982.csv及对应的diff和rule,以及后来某一年佛山地区代码进行更新之后的修正
Commit 5: 永济/河津代码修正
牵扯到1994-1999对应的csv,1994的diff和rule,以及最后这两个地区再进行变更的时候的修正
Commit 6: 桥东区区划变更时间勘误
牵扯到2014对应的csv,以及两个diff,rule中时间的变化
Commit 7: 马尔康区划调整变更时间勘误
牵扯到2015对应的csv,以及两个diff,rule中时间的变化
Commit 8: 大量2018年的区划调整被误划入2019年
估计是因为我们当时做这个的时候刚好是2018年10月前后,导致数据出现了混乱,这个commit要格外仔细
Commit 9: Resort 2022.csv
2022年的csv和diff都需要对应修改
(Optional) Commit 10: Add 2023 change
我看到了你爬了2023年的东西,如果有时间且乐意的话可加进去,没时间就放在这。请优先调整commit结构。
总的comment可能有点长,见谅!再次为之前没空仔细review拖了这么久感到抱歉。

1986-1987,330206,滨海区,北仑区
1986-1987,350211,郊区,集美区
1986-1987,362501,抚州市,临川市
1986-1987,379006,威海市,胶州市
Copy link
Contributor

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

这个变动不正确,请回滚。

2017-2018,530630,530681,水富县 -> 水富市
2017-2018,620824,620881,华亭县 -> 华亭市
2018-2019,130223,130284,滦县 -> 滦州市
2018-2019,140421,140404,长治县 -> 上党区
Copy link
Contributor

@jianghc724 jianghc724 Jul 7, 2024

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

这两行的确本不应该出现在这里,疑似后续因为没地方放手动添加,请只更改年份。
接之前通过马尔康行分割的comment,剩下的看起来合理。

1990-1991,320611,郊区,港闸区
1990-1991,440502,同平区,龙湖区
1990-1991,440503,安平区,金园区
1990-1991,440504,公园区,升平区
Copy link
Contributor

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

这里的确有这个变化,请回滚改动。

2017-2018 371200 莱芜市
2017-2018 371202 莱城区
2017-2018 430221 株洲县
2017-2018 511521 宜宾县
Copy link
Contributor

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

这里需要对对应的handwritten也进行修改,请根据我的总review进行commit重构,这样会一眼看出什么改动漏了。

@liuyunbin liuyunbin force-pushed the master branch 5 times, most recently from 98e58db to 3bbc7c2 Compare July 8, 2024 07:42
@liuyunbin
Copy link
Author

liuyunbin commented Jul 8, 2024

问题: 请问, 有什么好办法能高效并且准确生成行政区的变更情况吗? 能分享一下相关的思路吗?

抱歉我刚看见这个PR,我们在库中有自动生成的脚本,会自动生成大部分的区划变更。 对于部分异常,我们是手动加入的。

@jianghc724 parse-diff.sh 这个能改成增量生成吗, 否则每次都得核对所有年份的所有数据
主要这里

print("duplicate additions: ", [code, fullname], additions[name], file=sys.stderr)

@jianghc724
Copy link
Contributor

问题: 请问, 有什么好办法能高效并且准确生成行政区的变更情况吗? 能分享一下相关的思路吗?

抱歉我刚看见这个PR,我们在库中有自动生成的脚本,会自动生成大部分的区划变更。 对于部分异常,我们是手动加入的。

@jianghc724 parse-diff.sh 这个能改成增量生成吗, 否则每次都得核对所有年份的所有数据 主要这里

print("duplicate additions: ", [code, fullname], additions[name], file=sys.stderr)

我不是很清楚这里的增量生成的具体意思,这里需要生成所有年份的所有数据,不然结果会有问题。

@liuyunbin
Copy link
Author

问题: 请问, 有什么好办法能高效并且准确生成行政区的变更情况吗? 能分享一下相关的思路吗?

抱歉我刚看见这个PR,我们在库中有自动生成的脚本,会自动生成大部分的区划变更。 对于部分异常,我们是手动加入的。

@jianghc724 parse-diff.sh 这个能改成增量生成吗, 否则每次都得核对所有年份的所有数据 主要这里

print("duplicate additions: ", [code, fullname], additions[name], file=sys.stderr)

我不是很清楚这里的增量生成的具体意思,这里需要生成所有年份的所有数据,不然结果会有问题。

可以参考这个提交, 我主要不想每次运行都报 duplicate additions 这个, 也不知道报的问题处理没
39e462f

@liuyunbin
Copy link
Author

liuyunbin commented Jul 10, 2024

抱歉久等,我今天下午终于有整块的时间进行仔细review,因为里面的部分变化令我意想不到,我需要打开对应的网页对改动进行仔细检查。 这个repo是接近六年前我们写的,comment可能有点多,也可能有错,欢迎讨论! 除了以下所有的comment,还需要劳烦你整合一下commit的结构,目前的结构相对来说对于reviewer不是很友好,也容易遗漏。我认为table的变化应该立刻体现在diff和rule的变化,这样更为直观。 Commit 1: 修复脚本中的路径错误 Commit 2: 修正失效url Commit 3: update script for descrptions并将新获取的网页存档,如果之后没有做23年的区划变更,不用将网页修改至23年,22年即可。 Commit 4: 添加丢失的2017/2018/2019 csv的表头 并更新对应的diff 以上四个commit为框架更新或者为obvious change,以下的commit为区划代码勘误 Commit 4: 佛山地区代码修正 牵扯到1982.csv及对应的diff和rule,以及后来某一年佛山地区代码进行更新之后的修正 Commit 5: 永济/河津代码修正 牵扯到1994-1999对应的csv,1994的diff和rule,以及最后这两个地区再进行变更的时候的修正 Commit 6: 桥东区区划变更时间勘误 牵扯到2014对应的csv,以及两个diff,rule中时间的变化 Commit 7: 马尔康区划调整变更时间勘误 牵扯到2015对应的csv,以及两个diff,rule中时间的变化 Commit 8: 大量2018年的区划调整被误划入2019年 估计是因为我们当时做这个的时候刚好是2018年10月前后,导致数据出现了混乱,这个commit要格外仔细 Commit 9: Resort 2022.csv 2022年的csv和diff都需要对应修改 (Optional) Commit 10: Add 2023 change 我看到了你爬了2023年的东西,如果有时间且乐意的话可加进去,没时间就放在这。请优先调整commit结构。 总的comment可能有点长,见谅!再次为之前没空仔细review拖了这么久感到抱歉。

@jianghc724 @lizy14 按照上面的内容, 重新整理了整个分支, 简要如下

  1. 修复脚本中的路径错误
  2. 修正失效url
  3. 使用新目录添加最新的 descriptions
  4. 对 tables 下的文件进行排序, 并生成新的 diffs 和 rules-generated
  5. 使用 dumps.csv 处理可能重复的行政区, 避免每次都重复报错 -- 这个可参考提交对应的注释
  6. 所有郊区和城区 的添加都当作重复处理, 避免误判
  7. 处理 2018 年的数据, 其他的数据变更都拆开了, 2018 的内容实在太多了 -- 这个可以重点关注下
  8. 增加了对区划代码合法的判断, 避免误写
  9. 2023 年的数据, 民政部还没更新, 暂时没有加入
  10. 解决了 rules-generated/code-removals-unaccounted-for.log 里所有待确定的问题
  11. 其他的变更参考提交信息即可
  12. 内容变动比较多, 难免会有错误, 有任何问题可以随时沟通, 有劳

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment

Labels

None yet

Projects

None yet

Development

Successfully merging this pull request may close these issues.

2 participants